Encoder: input x 分出 mean, std,融合成 latent space z (z維度比input維度低)
Decoder: 把 z 重建回 x space
VAE 在訓練過程中使用重建損失(reconstruction loss),這種損失函數鼓勵模型生成與原始數據平均特性相似的圖像,這樣會犧牲一些細節,導致生成的圖像可能會比較模糊。
由於 VAE 的潛在空間(latent space)通常是高斯分佈的混合,這使得生成的圖像在細節和真實感上可能不如 GAN(生成對抗網絡)。GAN 通過生成器和判別器的對抗訓練,可以生成更真實、更細緻的圖像。
因為是由 Discriminator 判斷是否生成正確,如果 Generator 騙了 Discriminator 就變成訓練失敗。
同時需要訓練兩個神經網路,如果訓練失敗要重新來。
這是因為 Diffusion Model 需要多次還原過程,每次都需要經過神經網路的計算。這樣的多次迭代使得訓練過程非常耗時和耗資源。
所以出現了 ControlNet 和 T2I-Adapter 去改善生成品質
自回歸模型需要逐步生成每一個像素或資料點,這使得生成過程相對較慢。這種逐步生成的方式雖然可控,但在處理大規模資料時可能會變得非常耗時。
由於自回歸模型是逐步生成的,每一步只考慮前一步的結果,這可能導致生成的圖像缺乏全局一致性和細節。這種局部生成的方式可能會忽略整體結構和細節。
生成方式為從圖像左上方開始一個pixel一個pixel的生成,都是以前一個pixel為參考生成下一個,雖然能夠生成複雜的影像,但沒有顧及到附近pixel的關聯性
對於長序列資料,自回歸模型可能會遇到困難,因為隨著序列長度的增加,模型需要考慮的上下文信息也會增加,這可能導致生成的品質下降。
在訓練時是以teacher forcing的方式,但test時是以t-1時的output當作t的input,因此可能會有累積的誤差